Search CORE

52 research outputs found

Multilabel Text Classification Menggunakan SVM dan Doc2Vec Classification Pada Dokumen Berita Bahasa Indonesia

Author: Gunawan Kristian Indradiarta
Santoso Joan
Publication venue: Institut Sains dan Teknologi Terpadu Surabaya (d/h Sekolah Tinggi Teknik Surabaya)
Publication date: 07/04/2021
Field of study

Seiring dengan berkembangnya informasi yang ada di sekitar dengan pesat, maka jenis informasi yang ada pun menjadi sangat bervariasi dan sangat banyak jumlahnya, dan akan semakin terus bertambah. Dengan kondisi tersebut, kita akan mengalami kesulitan untuk mengenali jenis dari informasi tersebut satu persatu. Oleh karena itu dengan adanya proses klasifikasi teks dan dokumen sangatlah membantu untuk memilah dan mengenali informasi-informasi apa saja yang ada, baik informasi yang lama maupun informasi yang baru dan belum pernah ditemui sebelumnya. Bertujuan untuk dapat mengidentifikasi dan mengklasifikasikan dokumen-dokumen berita dalam bahasa Indonesia ke dalam beberapa kategori sekaligus, maka dibuatlah sebuah penelitian berupa sistem untuk menangani klasifikasi dokumen teks dalam bahasa Indonesia. Sistem tersebut akan memproses berita-berita yang diberikan, dan kemudian akan memberikan 2 kategori yang paling mendekati terhadap isi dari berita tersebut. Sistem dibuat dengan menggunakan Python, memanfaatkan Doc2Vec untuk mengambil fitur dataset, dan SVM untuk melakukan klasifikasi terhadap banyak kelas. Dataset yang digunakan adalah kumpulan dokumen berupa berita-berita yang diperoleh dari CNN Indonesia tahun 2016-2017, dan terbagi dalam 5 kategori berita utama, yaitu: Politik, Ekonomi, Teknologi, Olahraga, dan Hiburan. Dikarenakan sedikitnya literatur untuk klasifikasi text dalam bahasa Indonesia, maka pada penelitian ini hanya menargetkan akurasi sebesar 70% saja. Namun dari hasil ujicoba, akurasi yang diperoleh melebihi 90%. Hasil prediksi untuk kelas dokumen pun memiliki tingkat keberhasilan yang tinggi. Dengan penggunaan dataset dan penanganan preprocessing yang tepat untuk dokumen bahasa Indonesia, maka hasil yang dicapai bisa lebih bagus dan akurat

Jurnal Sekolah Tinggi Teknik Surabaya

Jurnal LPPM iSTTS

Journal of Information System,Graphics, Hospitality and Technology

Stemming Bahasa Tetun Menggunakan Pendekatan Rule Based

Author: Gunawan
Guterres Anita
Santoso Joan
Publication venue: 'Institut Informatika Indonesia Surabaya'
Publication date: 31/10/2019
Field of study

Stemming adalah proses yang sangat penting untuk mencari kata dasar dari sebuah kata derivatif. Inti dari proses stemming adalah menghilangkan imbuhan pada suatu kata. Stemming sangat dibutuhkan untuk proses information retrieval system. Algoritma pada proses stemming bisa berbeda-beda pada setiap bahasa di berbeda negara. Data yang digunakan adalah 176 kata dasar dalam bahasa Tetun yang merupakan bahasa asli warga negara Timor Leste. Penelitian ini bertujuan untuk merancang algoritma baru yang tepat untuk stemming bahasa Tetun. Tahap awal stemming bahasa Tetun adalah proses filterisasi untuk menghilangkan tanda baca, angka, dan kata yang tidak penting. Lalu tahap tokenisasi untuk membuat variabel yang terdiri dari satu kata. Lalu setiap kata melalui proses stemming untuk menghilangkan imbuhan awalan, akhiran, dan konfiks. Analisis dilakukan berdasarkan kasus error stemming seperti overstemming, understemming, unchanged, dan spelling exception. Hasil uji coba yang didapatkan adalah algoritma stemming bahasa Tetun menghasilkan akurasi sebesar 90.52%

IKADO E-Journal (Institut Informatika Indonesia)

Pengenalan Lirik Lagu Otomatis Pada Video Lagu Indonesia Menggunakan Hidden Markov Model Yang Dilengkapi Music Removal

Author: Santoso Joan
Setyati Endang
Tirta Luhfita
Publication venue: Institut Sains dan Teknologi Terpadu Surabaya (d/h Sekolah Tinggi Teknik Surabaya)
Publication date: 31/10/2022
Field of study

Video sangat penting untuk membuat informasi berupa suara dalam video agar dapat dipahami oleh semua kalangan masyarakat, dan orang-orang yang memiliki masalah pendengaran yaitu dengan cara paling alami terletak pada penggunaan subtitle. Oleh karena itu, peneliti membuat pengenalan lirik lagu otomatis pada video lagu Indonesia menggunakan Hidden Markov Model yang dilengkapi music removal. Dalam pengenalan suara lebih akurat dilakukan dengan menggunakan model HMM yang dilengkapi oleh MFCC (kata yang cocok 81% dan WER 19%) dibandingkan dengan model LDA + MFCC (kata yang cocok 71% dan WER 29%) dan DWT + MFCC (kata yang cocok 61% dan WER 39%). Jumlah kata dan sample suara pada library Bahasa Indonesia yang digunakan cukup sangat mempengaruhi MFCC dan CMU Sphinx-4, Nada pada inputan lagu yang akan diproses CMU Sphinx-4 juga sangat berpengaruh pada tingkat keberhasilan, dikarenakan CMU Sphinx-4 sangat sensitif dengan nada yang terlalu tinggi dan noise yang ada pada inputan lagu tersebut sehingga peneliti menambahkan fitur ekstraksi pada suara yaitu menggunakan MFCC. Dalam hal ini menggunakan dataset kecil terlebih dahulu untuk memastikan metode Hidden Markov Model yang dilengkapi MFCC dan CMU Sphinx-4 dapat berjalan dengan baik, Dari penelitian beberapa peneliti sebelumnya, maka hasil akhir yang diperoleh dengan menggunakan metode HMM yang dilengkapi oleh MFCC dan CMU Sphinx-4 dalam penelitian ini mendapatkan hasil akurasi training 78% dan testing 81% kecocokan kata pada video lagu

Jurnal LPPM iSTTS

Pengenalan Lirik Lagu Otomatis Pada Video Lagu Indonesia Menggunakan Hidden Markov Model Yang Dilengkapi Music Removal

Author: Santoso Joan
Setyati Endang
Tirta Luhfita
Publication venue: Institut Sains dan Teknologi Terpadu Surabaya (d/h Sekolah Tinggi Teknik Surabaya)
Publication date: 31/10/2022
Field of study

Jurnal Sekolah Tinggi Teknik Surabaya

Digit Classification of Majapahit Relic Inscription using GLCM-SVM

Author: Santoso Joan
Septianto Tri
Setyati Endang
Publication venue: 'State University of Malang (UM)'
Publication date: 23/08/2018
Field of study

A higher level of image processing usually contains some kind of classification or recognition. Digit classification is an important subfield in handwritten recognition. Handwritten digits are characterized by large variations so template matching, in general, is inefficient and low in accuracy. In this paper, we propose the classification of the digit of the year of a relic inscription in the Kingdom of Majapahit using Support Vector Machine (SVM). This method is able to cope with very large feature dimensions and without reducing existing features extraction. While the method used for feature extraction using the Gray-Level Co-Occurrence Matrix (GLCM), special for texture analysis. This experiment is divided into 10 classification class, namely: class 1, 2, 3, 4, 5, 6, 7, 8, 9, and class 0. Each class is tested with 10 data so that the whole data testing are 100 data number year. The use of GLCM and SVM methods have obtained an average of classification results about 77 %

Portal Jurnal Elektronik Universitas Negeri Malang

Pengenalan Lirik Lagu Otomatis Pada Video Lagu Indonesia Menggunakan Hidden Markov Model Yang Dilengkapi Music Removal

Author: Santoso Joan
Setyati Endang
Tirta Luhfita
Publication venue: Institut Sains dan Teknologi Terpadu Surabaya (d/h Sekolah Tinggi Teknik Surabaya)
Publication date: 31/10/2022
Field of study

Jurnal Sekolah Tinggi Teknik Surabaya

Jurnal LPPM iSTTS

Journal of Information System,Graphics, Hospitality and Technology

Web Content Extractor Menggunakan Neural Network untuk Konten Artikel di Internet

Author: Ahdan Syabith Umar
Armanto Hendrawan
Santoso Joan
Publication venue: Institut Sains dan Teknologi Terpadu Surabaya (LPPM ISTTS)
Publication date: 01/10/2021
Field of study

Berkembangnya teknologi Javascript khususnya AJAX dan CSS membuat halaman web yang dulunya statis menjadi lebih dinamis dengan tampilan yang lebih menarik dan dipenuhi iklan dan rekomendasi artikel lain. Oleh karena itu, sulit untuk mengotomatisasi proses pengambilan konten artikel pada konteks ini. Penelitian ini dibuat untuk menyelesaikan masalah otomatisasi pengambilan konten artikel di Internet. Aplikasi web yang akan dibuat terbagi menjadi empat modul, yaitu web crawler, web extractor, content classifier dan web visualizer. Penelitian ini memiliki dua desain arsitektur. Arsitektur yang pertama adalah arsitektur saat training. Arsitektur yang kedua adalah arsitektur program jadi. Proses training menggunakan 200 URL halaman web dari lima website berbeda. Metode pengujian yang akan digunakan adalah 4-Fold Cross Validation, sehingga 75% dari blok teks akan menjadi data latihan dan 25% dari blok teks akan menjadi data pengujian. Program jadi berupa Web Visualizer yang mengolah JSON file berisi hubungan antara halaman web yang didapatkan dari web crawler sehingga dapat dipresentasikan dalam sebuah grafik. Kesimpulan dari penelitian ini adalah bahwa kombinasi Scrapy, Splash, Neural Network Classifier dan D3 bekerja sangat baik untuk automasi ekstraksi konten artikel website di Internet sekaligus memvisualisasi hubungan antar halaman web. Deep Feed Forward Neural Network (DFFNN) dapat melakukan klasifikasi multi-class konten judul, penulis, dan isi artikel dengan baik selama template halaman web sudah pernah dilatih sebelumnya. DFFNN juga dapat melakukan klasifikasi binari untuk halaman web secara umum dengan F1-score 62.87%, dua kali lebih baik dari SVM yang hanya 31.28%

Jurnal Sekolah Tinggi Teknik Surabaya

Analisis Trending Topik untuk Percakapan Media Sosial dengan Menggunakan Topic Modelling Berbasis Algoritme LDA

Author: Harianto Reddy Alexandro
Santoso Joan
Syaifuddin Ahmad
Publication venue: Institut Sains dan Teknologi Terpadu Surabaya (LPPM ISTTS)
Publication date: 01/01/2020
Field of study

Aplikasi WhatsApp merupakan salah satu aplikasi chatting yang sangat populer terutama di Indonesia. WhatsApp mempunyai data unik karena memiliki pola pesan dan topik yang beragam dan sangat cepat berubah, sehingga untuk mengidentifikasi suatu topik dari kumpulan pesan tersebut sangat sulit dan menghabiskan banyak waktu jika dilakukan secara manual. Salah satu cara untuk mendapatkan informasi tersirat dari media sosial tersebut yaitu dengan melakukan pemodelan topik. Penelitian ini dilakukan untuk menganalisis penerapan metode LDA (Latent Dirichlet Allocation) dalam mengidentifikasi topik apa saja yang sedang dibahas pada grup WhatsApp di Universitas Islam Majapahit serta melakukan eksperimen pemodelan topik dengan menambahkan atribut waktu dalam penyusunan dokumen. Penelitian ini menghasilkan model topic dan nilai evaluasi f-measure dari model topik berdasarkan uji coba yang dilakukan. Metode LDA dipilih untuk melakukan pemodelan topik dengan memanfaatkan library LDA pada python serta menerapkan standar text-preprocessing dan menambahkan slang words removal untuk menangani kata tidak baku dan singkatan pada chat logs. Pengujian model topik dilakukan dengan uji human in the loop menggunakan word instrusion task kepada pakar Bahasa Indonesia. Hasil evaluasi LDA didapatkan hasil percobaan terbaik dengan mengubah dokumen menjadi 10 menit dan menggabungkan dengan reply chat pada percakapan grup WhatsApp merupakan salah satu cara dalam meningkatkan hasil pemodelan topik menggunakan algoritma Latent Dirichlet Allocation (LDA), didapatkan nilai precision sebesar 0.9294, nilai recall sebesar 0.7900 dan nilai f-measure sebesar 0.8541

Neliti

Jurnal Sekolah Tinggi Teknik Surabaya

Jurnal LPPM iSTTS

Expert System untuk Mendeteksi Penyakit Gigi Menggunakan Shell e2gLite dari Expertise2go

Author: gustaf Tuesday saka
Santoso Joan
Setyati Endang
Publication venue: 'Universitas Nurul Jadid'
Publication date: 31/10/2020
Field of study

Jumlah tenaga kerja kesehatan gigi di kalangan masyarakat dinilai kurang seimbang.Tujuan utama penelitian ini untuk mendeteksi penyakit pada gigi seseorang dengan menyediakan solusi berupa sistem pakar . Tahapan proses pada penelitian ini meliputi: Pembelajaran literatur mengenai Forward Chaining ,Certainly Factor dan software expertise2Go yaitu E2glite dan Pemahaman penerapan metode Certainly Factor , Menentukan batasan-batasan permasalahan dari penelitian mengenai penyakit pada gigi serta merumuskan serangkaian solusi-solusi berupa informasi untuk mengatasi permasalahan penyakit pada gigi.Nilai akurasi dihitung dari tingkat keberhasilan sistem melakukan pelacakan dan pemberian informasi yang tepat tentang diagnosa penyakit gigi dengan tingkat nilai akurasi sebesar 70%. berdasarkan perbandingan data dan hasil kesimpulan sistem

E-Journal UNUJA (Universitas Nurul Jadid)

Stance Classification Post Kesehatan di Media Sosial Dengan FastText Embedding dan Deep Learning

Author: Lim Ernest
Santoso Joan
Setiawan Esther Irawati
Publication venue: Institut Sains dan Teknologi Terpadu Surabaya (LPPM ISTTS)
Publication date: 01/01/2019
Field of study

Misinformasi merupakan fenomena yang semakin sering terjadi di media sosial, tidak terkecuali Facebook, salah satu media sosial terbesar di Indonesia. Beberapa penelitian telah dilakukan mengenai teknik identifikasi dan klasifikasi stance di media sosial Indonesia. Akan tetapi, penggunaan Word2Vec sebagai word embedding dalam penelitian tersebut memiliki keterbatasan pada pengenalan kata baru. Hal ini menjadi dasar penggunaan fastText embedding dalam penelitian ini. Dengan menggunakan pendekatan deep learning, penelitian berfokus pada performa model dalam klasifikasi stance suatu judul post kesehatan di Facebook terhadap judul post lainnya. Stance berupa for (setuju), observing (netral), dan against (berlawanan). Dataset terdiri dari 3500 judul post yang terdiri dari 500 kalimat klaim dengan enam kalimat stance terhadap setiap klaim. Model dengan fastText pada penelitian ini mampu menghasilkan F1 macro score sebesar 64%

Neliti

Jurnal Sekolah Tinggi Teknik Surabaya

Jurnal LPPM iSTTS